SOHO - Seeing Out of tHe bOx : End-to-End Pre-training for Vision-Language Representation Learning
#paper
クラスタリング
の上位互換みたいなことをする
1. パッチを特徴空間に飛ばす
2. パッチに映る物体が同じ種類の物体なら, その特徴が同じクラスタidに含まれるように学習
https://gyazo.com/0b8692c4c17fdd62eee928686237beb8